Aggregated Residual Transformations for Deep Neural Networks

2020-03-15

VGG模型展示一种简单高效的网络搭建策略：堆叠相同构造的block。ResNet继承了这一策略，减少了超参的可选度，使得网络深度成为一个需要重要考量的维度。作者认为这种简单的策略同时减少了过拟合数据集的风险。
Inception系列的网络通过精细设计网络拓扑，使得其能在低复杂度的情况下达到很高的准确率。在Inception模块中，一个核心的策略为split-transform-merge，输入先由1x1卷积分成多个低通道的嵌入，再分别经过一组变换（不同卷积核大小的卷积）后，连接得到结果。正是由这种策略达到高效且低计算复杂度。但是，精细设计的Inception模块中有很多超参（卷积核大小、个数等）需要设定，不易迁移到其他数据集。
本文贡献：
- 提出一个简单的网络架构，类似VGG/ResNet的堆叠相同层，同时以简单可扩展的形式利用split-transfrom-merge策略，各transform使用相同的拓扑结构，通过累加结果进行聚合，这种设计使得网络能够在不进行特殊改造的情况下扩展。
- 主张提升cardinality（Transform set的大小）是相比于宽提升度和深度更为高效的提升准确率的途径。
- 证实了在相同参数和计算量的情况下好过原本的ResNet。

ResNext Compared to ResNet

ResNext Blocks

ResNeXt是通过堆叠残差块构成的。
这些残差块有着相同的拓扑结构，并遵循两个规则：
- 每个残差块输出相同大小的feature map，卷积核大小和个数相同。
- 每当feature map降采样为1/2，残差块宽度（通道数）乘以2。

$$\sum_{i=1}^{D} w_{i} x_{i}$$

$$\mathbf{y}=\mathbf{x}+\sum_{i=1}^{C} \mathcal{T}_{i}(\mathbf{x})$$

Equivalent
Proof

ResNeXt-50 (32×4d) 输入输出通道数为256，32x4d 指的是 32组3x3卷积核，每个卷积核的通道数为4，

相比于ResNet-50，32×4d ResNeXt-50的错误率降低了1.7%，同时随着Cardinalty从1增大到32，其错误率逐渐降低。且32×4d ResNeXt-50相比ResNet，训练错误了也低了很多，因此该模型的准确度提升并不是来源于正则化，而是在特征表达上得到了提升。
在维持复杂度不变的情况下，相比提升宽度和深度，提升基数对性能提升更好。